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Description 

L'invention concerns les proc6d6s et dispositifs 
de synthase de la parole ; elle concerne, plus parti- 
culierement, la synthase £ partir d'un dictionnaire 5 
d'6!6ments sonores par d6coupage du texte £ sy nthe- 
tiser en microtrames identifies chacune par un nu- 
m6ro d'ordre d'6i6ment sonore correspondant et par 
des param£tres prosodiques (information de hauteur 
de son au debut et £ la fin de reiement sonore et du- 1 o 
r£e de reiement sonore), puis par adaptation et 
concatenation des elements sonores par une proce- 
dure d'addition-recouvrement. 

Les elements sonores stock6s dans le dictionnai- 
re seront f r6quemment des diphones, c'est-£-dire des 15 
transitions entre phonemes, ce qui permet, pour la 
langue frangaise, de se contenter d'un dictionnaire 
d'environ 1300 elements sonores ; on peut cepen- 
dant utiliser des elements sonores diff6rents, par 
exemple des syllabes ou mdme des mots. Les para- 20 
m&tres prosodiques sont determines en fonction de 
criteres portant sur le contexts : la hauteur de son qui 
correspond £ I'intonation, depend de ['emplacement 
de reiement sonore dans un mot et dans la phrase et 
la duree donn6e £ reiement sonore est fonction du 25 
rythme de la phrase. 

II faut rappeler au passage que les methodes de 
synthese de la parole se subdivisent en deux grou- 
pes. Celles qui utilisent un modeie mathematique du 
conduit vocal (synthese par prediction Iin6aire, 30 
synthese £ formants et synthese £ transform6e de 
Fourier rapide) font intervenir une d6convolution de la 
source et de la fonction de transfert du conduit vocal 
et exigent en general une cinquantaine d'op6rations 
arithmetiques par 6chantillon numerique de la parole 35 
avant conversion numerique-analogique et restitu- 
tion. 

Cette deconvolution source-conduit vocal per- 
met d'une part la modification de la valeur de la fre- 
quence fondamentale des sons vois6s, c'est-£-dire 40 
des sons qui ont une structure harmonique et sont 
provoques par vibration des cordes vocales, et d'au- 
tre part la compression des donn6es representant le 
signal de parole. 

Celles qui appartiennent au second groupe de 45 
procedes utilisent la synthese dans le domaine tem- 
porel par concatenation de formes d'onde. Cette so- 
lution a Tavantage de la flexibility d'emploi et de la 
possibilite de reduire consid6rablement le nombre 
d'operations arithmetiques par echantillons. En 50 
contrepartie, elle ne permet pas de reduire ie debit 
necessaire £ la transmission autant que les methodes 
basees sur un modeie mathematique. Mats cet incon- 
venient disparaftlorsqu'on recherche essentieiiement 
une bonne qualite de restitution sans etre g&ne par 55 
la n6cessit6 de transmettre des donn6es sur un canal 
etroit. 

La synthese de parole suivant la pr6sente inven- 
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tion appartient au second groupe. Elle trouve une ap- 
plication particulierement importante dans le domai- 
ne de la transformation d'une chatne orthographique 
(constituee par exemple par le texte fourni par une 
imprimante) en un signal de parole, par exemple res- 
titu6 directement ou emis sur une ligne teiephonique 
normale. 

On connait d6j£ (Diphone synthesis using an 
overlap-add technique for speech waveforms conca- 
tenation, CHARPENTIER etal, ICASSP 1986, IEEE- 
IECEJ-ASJ International Conference on Acoustics 
Speech and Signal Processing, pages 2 015-2 
018)un procede de synthese de parole £ partir d'6l6- 
ments sonores utilisant une technique d'addition-re- 
couvrement de signaux £ court-terme. Mais il s'agit 
de signaux £ court-terme de synthese, avec normali- 
sation du recouvrement des fenetres de synthese, 
obtenus par un processus tres complexe : 

- analyse du signal original par fen§trage syn- 
chrone du voisement ; 

- transformee de Fourier du signal £ court- 
terme ; 

- detection d'enveloppe ; 

- homothetie de I'axe f r6quentiel sur le spectre 
de la source ; 

- ponderation du spectre modifie de la source 
par I'enveloppe du signal d'origine ; 

- transformee de Fourier inverse. 

La presente invention vise notamment £ fournir 
un procede relativement simple et permettant une re- 
production acceptable de la parole. Elle part de I'hy- 
pothese qu'on peut considerer les sons vois6s 
comme la somme des reponses impulsionnelles d'un 
filtre, stationnaire durant plusieurs miltisecondes, 
(correspondant au conduit vocal) excite par une suite 
de Dirac, c'est-£-dire par un "peigne d'impulsions", de 
fagon synchrone de la frequence fondamentale de la 
source, c'est-£-dire des cordes vocales, ce qui se tra- 
duit dans le domaine spectral par un spectre harmo- 
nique, les harmoniques etant espac6s de la frequen- 
ce fondamentale et pond6r6s par une enveloppe pre- 
sentant des maxima appeies formants, dependant de 
la fonction de transfert du conduit vocal. 

On a dej£ propose (Micro-phonemic method of 
speech synthesis, Lucaszewic et al, ICASSP 1987, 
IEEE, pages 1426-1429) d'effectuerune synthese de 
parole ou la diminution de la frequence fondamentale 
des sons vois6s, lorsqu'elle est necessaire pour res- 
pecter des donnees prosodiques, est effectu6e par 
insertion de zeros, les microphonemes stock6s de- 
vant alors obligatoirement correspondre £ la hauteur 
maximale possible du son £ restituer, ou bien (brevet 
US 4 692 941) de diminuer de la m£me mani£re par 
insertion de zeros la frequence fondamentale, et 
d'augmenter celle-ci en diminuant la tailie de chaque 
periode. Ces deux methodes introduisentsurle signal 
de parole des distorsions non negligeables lors de la 
modification de la frequence fondamentale. 
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La prdsente invention vise d fournir un procddd et 
un dispositif de synthase & concatenation de formes 
d'onde ne prdsentant pas la limitation ci-dessus et 
permettant de fournir une parole de bonne quality, 
tout en ne ndcessitant qu'un faible volume de calculs 5 
arithmdtiques. 

Dans ce but, I'invention propose notamment un 
procddd suivant la revendication 1. 

Ces operations constituent la procedure de re- 
couvrement puis addition des formes d'onde dldmen- 10 
taires obtenues par fendtrage du signal de parole. 

En gdndral, on utilisera des dldments sonores 
constituds par des diphones. 

La largeur de la fendtre peut varier entre des va- 
ieurs infdrieures et supdrieures d deux fois la pdriode 1 5 
d'origine. Dans I'exemple de mise en oeuvre qui sera 
ddcrit plus loin, la largeur de la fendtre est choisie 
avantageusement dgale & environ deux fois la perio- 
ds d'origine en cas d'augmentation de la pdriode fon- 
damentale ou environ deux fois la pdriode finale de 20 
synthase en cas d'augmentation de la frequence fon- 
damentale, af in de compenser partiellement les mo- 
difications d'dnergie dues au changement de la fre- 
quence fondamentaie, non compensdes par une nor- 
malisation possible de I'dnergie, tenant compte de la 25 
contribution de chaque fendtre d Tamplitude des 
dchantillons du signal numdrique de synthase : dans 
te cas d'une diminution de la pdriode fondamentaie, 
la largeur de la fendtre sera done infdrieure d deux 
fois la pdriode fondamentaie d'origine. II est peu sou- 30 
haitable de descendre au dessous de cette valeur. 

Du fait qu'il est possible de modifier la valeur de 
la frequence fondamentaie dans les deux sens, les di- 
phones sont memorises avec la frequence fonda- 
mentaie naturelle du locuteur. 35 

Avec une fendtre de duree egaie & deux periodes 
fondamentales cons6cutives dans le cas voise, on 
obtient des formes d'onde eiementaires dont le spec- 
tre represente sensiblement I'enveloppe du spectre 
du signal de parole ou spectre d court terme large 40 
bande -du fait que ce spectre est obtenu par convo- 
lution du spectre harmonique du signal de parole et 
de la reponse f r6quentielle de la fen£tre, qui dans ce 
cas possede une largeur de bande superieure d la dis- 
tance entre harmoniques- ; la redistribution temporel- 45 
le de ces formes d'onde eiementaires donnera un si- 
gnal possedant sensiblement la mdme enveloppe 
que le signal d'origine mais une distance entre har- 
moniques modif i£e. 

Avec une fen&tre de duree superieure d deux p6- so 
riodes fondamentales, on obtient des formes d'onde 
eiementaires dont le spectre est encore harmonique, 
ou spectre d court terme bande etroite -du fait que 
cette fois-ci la reponse f r6quentielle de la fendtre est 
moins large que la distance entre harmoniques- ; la 55 
redistribution temporelle de ces formes d'onde eie- 
mentaires donnera un signal possedant, comme le si- 
gnal de synthase precedent, sensiblement la mdme 
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enveloppe que te signal d'origine d ceci prds qu'on 
aura introduit des termes de reverberation (signaux 
dont le spectre possede une amplitude moindre, une 
phase diff6rente, mais la mdme forme que le spectre 
d'amplitude du signal d'origine), dont I'effet ne sera 
audible qu'au deld de largeurs de fendtre d'environ 
trois periodes, cet effet de reverberation ne ddgra- 
dant pas la qualite du signal de synthase lorsque son 
amplitude est faible. 

On peut notamment utiliser une fendtre de Han- 
ning, bien que d'autres formes de fendtre soient 6ga- 
iement acceptables. 

Le traitement ddfini ci-dessus peut egalement 
dtre applique aux sons dits sourds ou non voisds, 
pouvant dtre reprdsentds par un signal dont la forme 
s'apparente £ celle d'un bruit blanc, mais sans syn- 
chronisation des signaux fendtrds : ceci a pour but 
d'homogeneiser le traitement sur les sons sourds et 
les sons voisds, ce qui permet d'une part le lissage 
entre elements sonores (diphones) et entre phone- 
mes sourds et voisds, etd'autre part une modification 
du rythme. II se pose un probldme £ la jonction entre 
diphones. Une solution pour dcarter cette difficult^ 
consiste £ omettre I'extraction de formes d'onde eie- 
mentaires & partir des deux periodes fondamentales 
adjacentes de transition entre diphones (dans le cas 
des sons sourds, les marques de voisement sont rem- 
placdes par des marques posdes arbitrairement) : on 
pourra soit ddf inir une troisidme fonction d'onde dld- 
mentaire en calculant la moyenne des deux fonctions 
d'onde eiementaires extraites de part et d'autre du di- 
phone, soit utiliser la procedure d'addition-recouvre- 
ment directement sur ces deux fonctions d'onde eie- 
mentaires. 

L'invention sera mieux comprise & la lecture de la 
description qui suit d'un mode particulier de mise en 
oeuvre de l'invention, donnd d titre d'exemple non II- 
mitatif. La description se rdfdre aux dessins qui I'ac- 
compagnent, dans lesquels : 

- la Figure 1 est un graphe destind d illustrer la 
synthdse de la parole par concatenation de di- 
phones et modification des paramdtres proso- 
diques dans le domaine temporel, conformd- 
ment d l'invention ; 

- la Figure 2 est un schdma synoptique montrant 
une constitution possible du dispositif de 
synthdse, implantd sur un calculateur hate ; 

- la Figure 3 montre, d titre d'exemple, comment 
on modif ie les paramdtres prosodiques d'un si- 
gnal natural, dans le cas d'un phondme parti- 
culier ; 

- les Figures 4A, 4B et 4C sont des graphiques 
destinds d montrer des modifications spectra- 
les apportdes d des signaux de synthdse voi- 
sds, la Figure 4A montrant le spectre d'origine, 
la Figure 4B le spectre avec diminution de la 
frdquence fondamentaie et la Figure 4C le 
spectre avec augmentation de cette frdquen- 
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ce; 

- la Figure 5 est un graphique montrant un prin- 
cipe d'attenuation des discontinues entre di- 
phones ; 

- la Figure 6 est un schema montrant le fendtra- 5 
ge sur plus de deux p6riodes. 

La synthase d'un phoneme est effectu6e £ partir 
de deux diphones stock6s dans un dictionnaire, cha- 
que phoneme etant compost de deux demi- 
diphones. Le son "6" dans "periode" par exemple sera 10 
obtenu £ partir du second demi-diphone de "pai" et du 
premier demi-diphone de "air". 

Un module de traduction orthographique phone- 
tique et de calcul de la prosodie (qui ne fait pas partie 
de ('invention) fournit £ un instant donn6, des indica- 15 
tions identif iant : 

- le phoneme £ restituer, d'ordre P 

- le phoneme precedent, d'ordre P-1 

- le phoneme suivant, d'ordre P+1 

et donnant la dur6e £ affecter au phoneme P ainsi que 20 
les p6riodes au debut et £ la fin (Figure 1). 

Une premiere operation d'analyse, qui n'est pas 
modiftee par I'invention, consiste £ determiner, par 
decodage du nom des phonemes et des indications 
prosodiques, les deux diphones retenus pour le pho- 25 
n£me £ utiliser et le voisement 

Tous les diphones disponibles (au nombre de 
1300 par exemple) sont memorises dans un diction- 
naire 10 muni d'une table constituant le descripteur 
12 et contenant I'adresse du debut de chaque dipho- 30 
ne (en nombre de blocs de 256 octets) la longueur du 
diphone et le milieu du diphone (ces deux derniers 
param£tres etant exprim£s en nombre d'£chantillons 
£ partir du debut) et des marques de voisement rep6- 
rant ie debut de la reponse du conduit vocal £ I'exci- 35 
tation des cordes vocales dans le cas d'un son vois6 
(au nombre de 35 par exemple). Des dictionnaires de 
diphones repondant £ ces crit£res sont disponibles 
par exemple aupr£s du Centre National d'Etudes des 
Telecommunications. 40 

Les diphones sont alors utilises dans un proces- 
sus d'analyse et de synthese schematise sur la Figu- 
re 1. On decrira ce processus en supposant qu'il est 
mis en oeuvre dans un dispositif de synthese ayant 
la constitution montr6e en figure 2, destine & etre re- 45 
lie £ un calculateur hdte, tel que le processeur central 
d'un ordinateur personnel. On supposera egalement 
que la frequence d'echantillonnage donnant la repre- 
sentation des diphones est de 16 kHz. 

Le dispositif de synthese (Figure 2) comporte so 
alors une m6moire vive principale 16 qui contient un 
micro-programme de calcul, le dictionnaire de dipho- 
nes 10 (c'est-£-dire des formes d'onde representees 
par des echantillons) ranges dans i'ordre des adres- 
ses du descripteur, la table 12 constituant le descrip- 55 
teur de dictionnaire, et une fenetre de Hanning, 
echantilionnee par exemple sur 500 points. La m6- 
moire vive 1 6 constitue egalement memoire de micro- 



trame et memoire de travail. Elle est reli6e par un bus 
de donnees 18 et un bus d'adresses 20 £ un acc£s 22 
au calculateur hdte. 

Chaque micro-trame 6mise pour restituer un 
phoneme (Figure 2) est constituee, pour chacun des 
deux phonemes P et P+1 qui interviennent 

- du numero d'ordre du phoneme, 

- de la valeur de la periode au debut du phone- 
me, de la valeur de periode & la fin du phone- 
me, et 

- de la duree totale du phoneme pouvant etre 
remplacee par la duree du diphone pour le se- 
cond phoneme. 

Le dispositif comprend encore, relies aux bus 18 
et 20, une unite de calcul locale 24 et un circuit d'ai- 
guillage 26. Ce dernier permet de relier une memoire 
vive 28 servant de tampon de sortie soit vers le cal- 
culateur, sort vers un contrdleur 30 de convertisseur 
numerique/analogique 32 de sortie. Ce dernier atta- 
que un filtre passe-bas 34, g6n6ralement limite & 8 
kHz, qui alimente un amplif icateur de parole 36. 

Le fonctionnement du dispositif est le suivant. 

Le calculateur hdte (non represente) charge les 
micro-trames dans le tableau reserve en memoire 1 6, 
par I'intermediaire de faeces 22 et des bus 18 et 20, 
puis il commando le debut de synthese & I'unite de 
calcul 24. Cette unite de calcul recherche le numero 
du phoneme courant P, du phoneme suivant P+1 et du 
phoneme precedent P-1 dans le tableau de micro-tra- 
mes, & I'aide d'un index memorise dans la memoire 
de travail, initiatisee £ 1. Dans le cas du premier pho- 
neme, i'unite de calcul vient chercher uniquement les 
numeros du phoneme courant et du phoneme sui- 
vant. Dans le cas du dernier phoneme, elle vient cher- 
cher le numero du phoneme precedent et celui du 
phoneme courant. 

Dans le cas general, un phoneme est constitue 
de deux demi-diphones ; I'adresse de chaque dipho- 
ne est recherchee par adressage matriciel dans le 
descripteur du dictionnaire par la formule suivante : 

numero du descripteur de diphone = numero du 
1er phoneme + (num6ro du 2eme phoneme - 
1) * nombre de diphones 

Sons vois6s 

L'unite de calcul charge, en memoire de travail 
16, I'adresse du diphone, sa longueur, son milieu ain- 
si que les trente-cinq marques de voisement. Elle 
charge ensuite, dans un tableau descripteur du pho- 
neme, les marques de voisement correspondant £ la 
deuxieme partie du diphone. Puis elle recherche, 
dans le dictionnaire de formes d'onde, la deuxieme 
partie du diphone, qu'elle place dans un tableau re- 
presentant le signal du phoneme d'analyse. Les mar- 
ques conservees dans le tableau descripteur du pho- 
neme sont decrementees de la valeur du milieu du di- 
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phone. 

Cette operation est r6p6t6e pour la deuxieme 
partie du phoneme constitute par la premiere partie 
du deuxieme diphone. Les marques de voisement de 
la premiere partie du deuxieme diphone sont ajoufees 
aux marques de voisement du phoneme et incr6men- 
fees de la valour du milieu du phoneme. 

Dans le cas des sons vois6s, I'unife de calcul, k 
partir des paramdtres prosodiques (dur6e, periode 
debut et p£riode fin du phoneme) determine alors le 
nombre de p6riodes n6cessaire k la dur£e du phone- 
me, suivant la formule : 

nombre de periodes = 2 * dur6e du phoneme / (p6- 
riode debut + p£riode fin) 

L'unife de caicul range en memoire le nombre de 
marques du phoneme naturel, egal au nombre de 
marques de voisement, puis determine le nombre de 
periodes k eiiminer ou k ajouter en effectuant la dif- 
ference entre le nombre de p£riodes de synthase et 
le nombre de p£riodes d'analyse, difference qui est 
f ix6e par la modification de tonalife k introduce k par- 
tir de celle qui correspond au dictionnaire. 

Pour chaque periode de synthase retenue, l'unit£ 
de calcul determine ensuite la periode d'analyse re- 
tenue parmi les periodes du phoneme k partir des 
considerations suivantes : 

- la modification de la dur£e peut £tre conside- 
r£e comme la mise en correspondence, par de- 
formation de I'axe des temps du signal de 
synthase, des n marques de voisement du si- 
gnal d'analyse et des p marques du signal de 
synthase, n et p etant des entiers predetermi- 
nes ; 

- k chacune des p marques du signal de syntha- 
se doit etre associee la marque la plus proche 
du signal d'analyse. 

La duplication ou, au contraire, reiimination de 
periodes egalement r6parties sur tout le phoneme 
modif ie la dur6e de celui-ci. 

II faut noter qu'on n'aura pas k extraire une forme 
d'onde eiementaire k partir des deux periodes adja- 
centes de transition entre diphones : l'op£ration d'ad- 
dition-recouvrement des fonctions eiementaires ex- 
traites des deux dernieres periodes du premier dipho- 
ne et des deux premieres periodes du deuxieme di- 
phone permet le lissage entre ces diphones comme 
le montre la figure 5. 

Pour chaque periode de synthese, I'unite de cal- 
cul determine le nombre de points k ajouter ou k sup- 
primer k la periode d'analyse en effectuant la diffe- 
rence entre cette derniere et la periode de synthese. 

Comme on I'a indique plus haut, il est avantageux 
de choisir la largeur de la fenStre d'analyse de la fa- 
$on suivante, illustree en Figure 3 : 

- si la periode de synthese est inferieure k la pe- 
riode d'analyse (lignes A et B de la Figure 3), 
la taille de la fenetre 38 est le double de la pe- 
riode de synthese ; 



- dans le cas contraire, la taille de la fendtre 40 
est obtenue en multipliant par deux la plus fai- 
ble des valeurs de la periode d'analyse couran- 
te et de la periode d'analyse precedente (lignes 

5 C et D). 

L'unite de calcul determine un pas d'avancement 
dans la lecture des valeurs de la fenetre, tabufee par 
exemple sur 500 points, le pas etant alors egai k 500 
divise par la taille de ia fenetre pr6cedemment calcu- 

10 fee. Elle lit dans la memoire tampon de signal du pho- 
neme d'analyse 28 les echantillons de la periode pre- 
cedente et de la periode courante, les pondere par la 
valeur de la fenetre de Hanning 38 ou 40 index6e par 
le numero de I'echantillon courant multiplie par le pas 

15 d'avancement dans la fenetre tabufee et ajoute, au 
fur et k mesure, les valeurs calcuiees k la memoire 
tampon du signal de sortie indexe par la somme du 
compteur de I'echantillon courant de sortie et de I'in- 
dex de recherche des echantillons du phoneme 

20 d'analyse. Le compteur de sortie courant est ensuite 
incremenfe de la valeur de la periode de synthese. 

Sons sourds (non voises) 

25 Pour les phonemes sourds, le traitement est ana- 
logue au precedent, excepfe que la valeur des pseu- 
do-periodes (distance entre deux marques de voise- 
ment) n'est jamais modif fee : reiimination de pseudo- 
periodes au centre du phoneme diminue simplement 

30 la duree de celui-ci. 

On n'augmente pas la duree de phonemes 
sourds, excepfe par addition de zeros au milieu des 
phonemes "silence". 

Le fenetrage s'effectue par periode pour norma- 

35 User la somme des valeurs des fen§tres appliqu£es 
au signal : 

- du debut de la periode precedente k la fin de 
la periode precedente, le pas d'avancement 
dans la lecture de la fenStre tabufee est (dans 

40 le cas d'une tabulation sur 500 points) egal k 

500 divise par deux fois la duree de la periode 
precedente ; 

- du debut de la periode courante k la fin de la 
periode courante, le pas d'avancement dans la 

45 fenetre tabufee est egal k 500 divise par deux 

fois la duree de la periode courante plus un d6- 
calage constant de 250 points. 
A la fin du calcul du signal d'un phoneme de 
synthese, I'unife de calcul range la derniere periode 
so du phoneme d'analyse et de synthese dans la memoi- 
re tampon 28 qui permet la transition entre phone- 
mes. Le compteur de I'echantillon courant de sortie 
est decremenfe de la valeur de la derniere periode de 
synthese. 

55 Le signal ainsi g£n6re est envoye, par blocs de 

2048 echantillons, dans un de deux espaces memoi- 
re reserves k la communication entre I'unife de calcul 
et le contrfileur 30 du convertisseur num£rique/ana- 
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logique 32. Des que le premier bloc est charge dans 
la premiere zone tampon, le contrdleur 30 est active 
par I'unite de calcul et vide cette premiere zone tam- 
pon. Pendant ce temps, I'unite de calcul remplit une 
deuxi&me zone tampon de 2048 6chantillons. L'unite 
de calcul vient ensuite alternativement tester ces 
deux zones tampons gr&ce & un drapeau pour y char- 
ger le signal num6rique de synthase & la fin de cha- 
que sequence de synthase d'un phoneme. Le contrd- 
leur 30, en fin de lecture de chaque zone tampon, po- 
sitionne le drapeau correspondent. En fin de syntha- 
se, le contrdleur vide la derni&re zone tampon et po- 
sitionne un drapeau de fin de synthase que le calcu- 
lates hdte peut lire via I'accds de communication 22. 

L'exemple de spectre de signal de parole voise 
d'analyse et de synthase illustre en Figures 4A-4C 
montre que les transformations temporelles du signal 
num6rique de parole n'affectent pas I'enveloppe du 
signal de synthase, tout en modif iant la distance en- 
tre harmoniques, c'est-S-dire la frequence fonda- 
mentale du signal de parole. 

La complexity du calcul reste faible : le nombre 
d'operations par echantillon est en moyenne de deux 
multiplications et deux additions pour la pond6ration 
et ia sommation des fonctions eiementaires fournies 
par I'analyse. 

L'invention est susceptible de nombreuses va- 
riantes de realisation et, en particulier, comme on I'a 
indique plus haut, une fen§tre de largeur sup6rieure 
& deux p6riodes, comme le montre la Figure 6, 6ven- 
tuellement de taillef ixe, peut donner des r6sultats ac- 
ceptables. 

On peut aussi utiliser le proc6de de modification 
de la frequence fondamentale sur des signaux num£- 
riques de parole en dehors de son application & la 
synthase par diphones. 



Revendications 



trage correspondant & chaque element sono- 
re, avec un d6calage temporel de ceux-ci 6gal 
d la periode fondamentale de synthase, sui- 
vant une information prosodique concernant 
s la frequence fondamentale de synthase, et 

(c) on effectue la synthase par sommation 
des signaux ainsi decal6s, 

caract6ris6 en ce que le proc6d6 ne 
comporte pas de transformation spectrale des si- 
10 gnaux analyses, visant & modifier la frequence 
fondamentale de ces signaux, entre les etapes 
(a) et(b). 

2. Proc6d6 de synthase de parole selon la revendi- 
15 cation 1, caract6ris6 en ce qu'on realise un dic- 
tionnaire d'eiements sonores, par exemple de di- 
phones, on d6coupe le texte & synthetiser en mi- 
cro-trames identifies chacune parle num6rode 
reiement sonore correspondant (diphone) et au 
20 moins une information prosodique, constitute au 
moins parlavaieurde la frequence fondamentale 
en debut et en fin d'6l6ment et par la dur6e de 
lament. 

25 3. Proced6 de synthase de parole selon Tune des 
revendications 1 et 2, caracterise en ce que la lar- 
geur de la fendtre est 6gale & deux fois la periode 
d'origine en cas de diminution de la frequence 
fondamentale ou deux fois la periode finale de 
30 synthase en cas d'augmentation de la frequence 
fondamentale. 

4. Procede de synthase de parole selon Tune des 
revendications 1 & 3, caracterise en ce que la fe- 

35 ndtre est une fendtre de Manning. 

5. Disposrtif de synthase de parole executant le pro- 
cede selon la revendication 1, caracterise en ce 
qu'il comprend, relics & des bus (18,20) : une m£- 
moire vive principale (16) qui contient un micro- 
programme de calcul, un dictionnaire de dipho- 
nes (10) constitu£s de formes d'onde represen- 
tees par des echantillons ranges dans I'ordre des 
adresses d'un descripteur (12) de dictionnaire, et 
une fenetre de Hanning echantillonnee, ladite 
memoire vive (1 6) constituant egalement m6moi- 
re de micro-trame et memoire de travail ; une uni- 
te de calcul locale (24) et un circuit d'aiguillage 
(26) permettant de relier une memoire vive (28) 
servant de tampon de sortie soit vers I'unite de 
calcul, soit vers un contrdleur (30) de convertis- 
seur numerique/analogique (32) de sortie atta- 
quant un filtre passe-bas (34) qui alimente un 
amplif icateur de parole (36). 



1. Precede de synthase de parole & partir d'eie- 
ments sonores (mots, syllabes, diphones,...), sui- 
vant lequel : 

(a) on effectue, au moins sur les sons voises 
des elements sonores, une analyse en appli- 45 
quant une fenetre de f iltrage synchrone de la 
frequence fondamentale d'origine, sensible- 
ment centr6e sur le debut de chaque r6ponse 
impulsionnelle du conduit vocal a I'excitation 
des cordes vocales, presentant une amplitu- so 
de d6croissant jusqu'a zero aux bords de la fe- 
netre, dont la largeur est au moins 6gale & en- 
viron deux fois la p6riode fondamentale d'ori- 
gine ou environ deux fois la periode fonda- 
mentale de synthase, selon que la periode 55 
fondamentale de synthase est sup6rieure ou 
inferieure & la periode fondamentale d'origine, 

(b) on replace les signaux resultant du fend- 
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Patontsmspruche 

1. Verfahren zur Sprachsynthese aus akustischen 
Elementen (Worten, Silben, Diphonen, ...) ge- 
mad welchem: 

(a) bei wenigstens den stimmhaften Lauten 
der akustischen Elemente eine Analyse unter 
Anwendung eines Fensters zum synchronen 
Filtern der Ursprungsgrundfrequenz durch- 
gefuhrt wird, welches im wesentlichen auf 
dem Anfang jeder Kmpulsantwort des Stimm- 
kanals bei Anregung der Stimmbander zen- 
triert ist, welche eine an den Rdndern des 
Fensters bis auf Null absinkende Amplitude 
aufweist, dessen Breite wenigstens ungefahr 
das Zweifache der Ursprungsgrundperiode 
oder ungefahr das Zweifache der Synthese- 
grundperiode ist, je nachdem, ob die Synthe- 
segrundperiode groder oder kieiner als die 
Ursprungsgrundperiode ist, 

(b) die aus der Anwendung des Fensters re- 
sultierenden, jedem akustischen Element 
entsprechenden Signale mit einer zeitlichen 
Verschiebung derselben, welche gleich der 
Grundperiode der Synthese ist, gemad einer 
die Grundfrequenz der Synthese betreffen- 
den prosodischen Information wiederaufge- 
stellt werden und 

(c) die Synthese durch Summierung der der- 
ail verschobenen Signale durchgef uhrt wird, 

dadurch gekennzeichnet, 
dad das Verfahren keine spektrale Transformati- 
on der analysierten Signale zwischen den Schrit- 
ten (a) und (b) umfadt, welche darauf abzielt, die 
Grundfrequenz dieser Signale zu modif izieren. 

2. Verfahren zur Sprachsynthese nach Anspruch 1 , 
dadurch gekennzeichnet, dad ein Lexikon von 
akustischen Elementen, z.B. von Diphonen, er- 
stellt wird, der zu synthetisierende Text in Mikro- 
ensembles aufgeteilt wird, welche jeweiis durch 
die Nummer des entsprechenden akustischen 
Elements (Diphon) und wenigstens eine prosodi- 
sche, wenigstens von dem Wert der Grundfre- 
quenz am Anfang und am Ende des Elements 
und von der Dauer des Elements gebildete Infor- 
mation identif iziert werden. 

3. Verfahren zur Sprachsynthese nach einem der 
Anspruche 1 und 2, dadurch gekennzeichnet, 
dad die Breite des Fensters das Zweifache der 
Ursprungsperiode im Fall der Verminderung der 
Grundfrequenz oder das Zweifache der Endpe- 
riode der Synthese im Fall der Verstarkung der 
Grundfrequenz ist 

4. Verfahren zur Sprachsynthese nach einem der 
Anspruche 1 bis 3, dadurch gekennzeichnet, dad 



das Fensterein Hanning-Fenster ist. 

S. Sprachsynthesevorrichtung zur Durchfuhrung des 
Verfahrens nach Anspruch 1, dadurch gekenn- 
5 zeichnet, dad sie an Bussen (18, 20) angeschlos- 

sen umfadt ein Haupt-RAM (16), welches ein 
Berechnungs-Mikroprogramm, ein Lexikonterbuch 
(1 0) von Diphonen, welche von Wellenformen ge- 
bildet sind, die von in der Reihenfolge der Adres- 
10 sen eines Deskriptors (12) des Lexikons abge- 
speicherten Abtastwerten dargestellt werden, 
und ein abgetastetes Hanning-Fenster umfadt, 
wobei das RAM (16) auch den Mikroensemble- 
speicher und den Arbeitsspeicher bildet; eine lo- 
ts kale Recheneinheit (24) und eine Verzweigungs- 
schaltung (26), welche es ermoglicht, ein als Aus- 
gangspuffer dienendes RAM (28) entweder mit 
der Recheneinheit zu verbinden oder mit einer 
Steuereinheit (30) eines Digital/Analog-Aus- 
20 gangswandlers (32), welcher in ein einen Sprach- 
verstarker (36) speisendes Tiefpadfilter (34) 
mundet. 



25 Claims 

1. Method of speech synthesis from sound ele- 
ments (words, syllabes, diphones,...), wherein: 

(a) analysis is carried out, at least on the 
30 voiced sounds of the sound elements, by win- 
dowing by means of a filtering window approx- 
imately centered on the beginning of each 
pulse response of the vocal tract to an excita- 
tion of the vocal cords, the window having an 

35 amplitude decreasing to zero at the edges of 

the window, whose width is at least equal to 
twice the original f undemental period or twice 
the fundamental synthesis period, 

(b) the signals resulting from windowing cor- 
40 responding to each sound element are re- 
placed with a time shift thereof equal to a fun- 
damental synthesis period, which is lesser 
than or greater than the original fundamental 
period, responsive to prosodic information re- 

45 lating to the fundamental sysnthesis frequen- 

cy, 

(c) synthesis is carried out by summing the 
thus shifted signals, 

characterized in that the method does not 
so include a spectral transformation of the analysed 
signals, for modifying the fundamental frequency 
of said analysed signals, between steps (a) and 
(b). 

55 2. Method of speech synthesis according to claim 1 , 
characterized in that a dictionary of sound 
elements, for example diphones, is formed; the 
text to be synthesized is split into microframes 
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each identified by the serial number of the corre- 
sponding sound element (diphone) and at least 
one prosodic information, formed at least by the 
value of the fundamental frequency at the begin- 
ning and at the end of an element and by the dur- s 
ation of the element. 



3. Method of speech synthesis according to any one 
of claims 1 and 2, 

characterized in that the width of the win- 10 
dow is equal to twice the original period in the 
case of reduction of the fundamental frequency 
or twice the final synthesis period in the case of 
increase of the fundamental frequency. 

15 

4. Method of speech synthesis according to any one 
of claims 1-3, 

characterized in that the window is a Han- 
ning window. 

20 

5. Device for speech synthesis carrying out the 
method of claim 1, 

characterized in that it comprises, con- 
nected to buses (18, 20): a main random access 
memory (16) which contains a computing micro- 25 
program, a dictionary of diphones (10) formed of 
waveforms represented by samples stored in the 
order of the addresses of a dictionary descriptor 
(12) and a sampled Hanning window, said ran- 
dom access memory (16) also forming a micro- 30 
frame memory and a working memory; a local 
computing unit (24) and a routing circuit (26) mak- 
ing it possible to connect a random access mem- 
ory (28) serving as output buffer either to the 
computing unit or to a controller (30) of an output 35 
digital/analog converter (32) driving a low pass 
filter (34) which feeds a speech amplifier (36). 
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